Search CORE

45 research outputs found

Composite repetition-aware data structures

Author: A Blumer
A Lempel
D Arroyuelo
D Belazzougui
DE Willard
J Radoszewski
J Sirén
J Ziv
M Crochemore
M Crochemore
M Raffinot
P Ferragina
S Kreft
T Gagie
V Mäkinen
V Mäkinen
W Rytter
Publication venue
Publication date: 01/01/2015
Field of study

In highly repetitive strings, like collections of genomes from the same species, distinct measures of repetition all grow sublinearly in the length of the text, and indexes targeted to such strings typically depend only on one of these measures. We describe two data structures whose size depends on multiple measures of repetition at once, and that provide competitive tradeoffs between the time for counting and reporting all the exact occurrences of a pattern, and the space taken by the structure. The key component of our constructions is the run-length encoded BWT (RLBWT), which takes space proportional to the number of BWT runs: rather than augmenting RLBWT with suffix array samples, we combine it with data structures from LZ77 indexes, which take space proportional to the number of LZ77 factors, and with the compact directed acyclic word graph (CDAWG), which takes space proportional to the number of extensions of maximal repeats. The combination of CDAWG and RLBWT enables also a new representation of the suffix tree, whose size depends again on the number of extensions of maximal repeats, and that is powerful enough to support matching statistics and constant-space traversal.Comment: (the name of the third co-author was inadvertently omitted from previous version

arXiv.org e-Print Archive

Crossref

Archivio istituzionale della ricerca - Università degli Studi di Udine

Archivio istituzionale della ricerca - Università degli Studi di Venezia Ca' Foscari

Archivio della ricerca- LUISS Libera Università Internazionale degli Studi Sociali Guido Carli di Roma

Practical Evaluation of Lempel-Ziv-78 and Lempel-Ziv-Welch Tries

Author: A Poyias
D Arroyuelo
D Lemire
D Lemire
D Lemire
G Marsaglia
GH Gonnet
H Bannai
H Luan
J Fischer
J Fischer
J Jansson
J Kärkkäinen
J Ziv
J Ziv
JA Feldman
JG Cleary
K Chung
L Carter
P Tchebychev
RM Karp
RM Robinson
TA Welch
Y Nakashima
Publication venue
Publication date: 09/06/2017
Field of study

We present the first thorough practical study of the Lempel-Ziv-78 and the Lempel-Ziv-Welch computation based on trie data structures. With a careful selection of trie representations we can beat well-tuned popular trie data structures like Judy, m-Bonsai or Cedar

arXiv.org e-Print Archive

Crossref

Contribuciones a las bases de datos no convencionales

Author: Arroyuelo Jorge
Di Genaro María E.
Esquivel Susana Cecilia
Grosso Alejandro
Ludueña Verónica
Martinez Cintia D.
Reyes Nora Susana
Publication venue
Publication date: 01/04/2017
Field of study

El advenimiento de las ciencias de la computación a todos los ámbitos de la vida moderna, ha exigido el desarrollo de aplicaciones que satisfagan los requerimientos de distintos tipos de usuarios, desde campos muy dispares, adaptándose a todo tipo de exigencias para lograr un alcance masivo. Claramente, esto implica lograr manipular eficientemente datos no convencionales muy disímiles como: huellas digitales, imágenes, audio, secuencias de ADN, texto, video, etc. Como las soluciones tradicionales no suelen hacer frente a tales requerimientos, es necesario utilizar depósitos especializados y búsquedas no exactas sobre estos tipos de datos. Además de proveer una respuesta rápida y adecuada a dichas demandas, es necesario un uso eficiente del espacio disponible, y al considerar bases de datos masivas, las estructuras en particular serán estructuras de datos con I/O eficiente. Las Bases de Datos Métricas son uno de los modelos generales en los cuales se pueden utilizar estructuras de datos especializadas que contemplen estos aspectos. Los lenguajes de consulta no siempre poseen el poder expresivo necesario para reflejar las consultas consideradas de interés. Así, nuestra investigación pretende contribuir a consolidar este nuevo modelo de bases de datos desde varias perspectivas.Eje: Bases de datos y Minería de datos.Red de Universidades con Carreras en Informática (RedUNCI

Servicio de Difusión de la Creación Intelectual

Bases de datos no convencionales : Índices y operaciones

Author: Alba M. D.
Arroyuelo Jorge
Chávez Edgar
Di Genaro María E.
Figueroa Karina
Grosso Alejandro
Jofré M.
Ludueña Verónica
Paredes Rodrigo
Reyes Nora Susana
Publication venue
Publication date: 09/06/2021
Field of study

Debido a que en la actualidad se generan gran cantidad de datos digitales, desde fuentes muy disimiles, los repositorios especializados en datos no estructurados se vuelven cada vez más necesarios. Por este motivo, los mismos deben adaptarse rápidamente, para administrar de manera eficiente el gran volumen de datos generados, al igual que el tipo de requerimientos al que son sometidos los mismos; éstos pueden ser tan dispares como los tipos de datos que puede ser necesario administrar, dado que pertenecen a campos muy diferentes. Para ello, se investigan distintos aspectos relacionados con este tipo de bases de datos, como la administración del espacio disponible, que se vuelve crucial debido a la gran cantidad de datos que se debe manipular; formas más sofisticadas de búsqueda sobre las mismas, que permitan enfrentar tales requerimientos; optimización de estos depósitos, o desarrollo de nuevos, considerando incluso la arquitectura del procesador. Un modelo de base de datos no convencionales que se adapta a tales requerimientos, en el cual se pueden utilizar métodos de acceso que contemplen estos aspectos, son las Bases de Datos Métricas. Esta investigación pretende contribuir a la madurez de este nuevo modelo de bases de datos considerando distintas perspectivas.Eje: Bases de Datos y Minería de Datos.Red de Universidades con Carreras en Informátic

Servicio de Difusión de la Creación Intelectual

Bases de datos no convencionales: índices y lenguajes de consulta

Author: Arroyuelo Jorge
Chávez Edgar
Esquivel Susana Cecilia
Figueroa Karina
Grosso Alejandro
Hoffhein Manuel
Ludueña Verónica
Martinez Cintia D.
Navarro Gonzalo
Paredes Rodrigo
Reyes Nora Susana
Publication venue
Publication date: 01/04/2015
Field of study

En la actualidad es muy común suministrar una imagen a un buscador y esperar que este localice, imágenes parecidas a la provista. Escenarios como este requieren el desarrollo de aplicaciones capaces de manipular datos no convencionales como imágenes, audio, video, secuencias de ADN, texto, huellas digitales, etc., almacenarlos y obtener información desde ellos, para responder eficientemente consultas que realicen los usuarios. Claramente, es necesario utilizar depósitos especializados de datos y técnicas de búsquedas no exactas sobre ellos, porque las soluciones tradicionales no permiten hacer frente a tales requerimientos. En este ámbito es muy raro comparar por igualdad exacta, siendo generalmente las consultas por objetos similares a uno dado. Por lo tanto, ademas de requerir una respuesta rápida y adecuada y un eficiente uso del espacio disponible, es necesario utilizar modelos generales en los cuales se puedan utilizar estructuras de datos especializadas que contemplen estos aspectos, como lo son las Bases de Datos Métricas y que si se consideran bases de datos masivas, dichas estructuras en particular sean, en particular, estructuras de datos con I/O eficiente. Otro aspecto importante son los lenguajes de consulta, necesarios para la manipulación de una base de datos, que no siempre poseen el poder expresivo necesario para expresar las consultas consideradas de interés en este modelo. Así, nuestra investigación pretende contribuir a la consolidación de este nuevo modelo de bases de datos.Eje: Base de Datos y Minería de DatosRed de Universidades con Carreras en Informática (RedUNCI

Bases de datos no convencionales: índices y lenguajes de consulta

Author: Arroyuelo Jorge
Chávez Edgar
Esquivel Susana Cecilia
Figueroa Karina
Grosso Alejandro
Hoffhein Manuel
Ludueña Verónica
Martinez Cintia D.
Navarro Gonzalo
Paredes Rodrigo
Reyes Nora Susana
Publication venue
Publication date: 01/04/2015
Field of study

Servicio de Difusión de la Creación Intelectual

Aportes al modelo de bases de datos métricas

Author: Arroyuelo Jorge
Chávez Edgar
Esquivel Susana Cecilia
Figueroa Karina
Grosso Alejandro
Hoffhein Manuel
Ludueña Verónica
Martinez Cintia D.
Navarro Gonzalo
Paredes Rodrigo
Reyes Nora Susana
Publication venue
Publication date: 01/04/2016
Field of study

La computación se ha vuelto indispensable en cualquier ámbito de la vida moderna: ciencias, arte, educación, finanzas, diversión, etc., por lo que se hizo prioritario el desarrollo de aplicaciones capaces de manipular casi cualquier tipo de datos. Para lograr un alcance masivo, muchas de estas aplicaciones son cada vez más intuitivas; por ejemplo, es común ingresar una imagen o un trozo de canción a un buscador y esperar que éste muestre imágenes o canciones parecidas a la provista. Claramente, para lograr la manipulación eficiente de datos como imágenes, audio, video, secuencias de ADN, texto, huellas digitales, etc., es necesario utilizar depósitos especializados y técnicas de búsquedas no exactas sobre ellos, ya que las soluciones tradicionales no permiten hacer frente a tales requerimientos. Las Bases de Datos Métricas son uno de los modelos generales en los cuales se pueden utilizar estructuras de datos especializadas que contemplen estos aspectos. Además de proveer una respuesta rápida y adecuada, será necesario un eficiente uso del espacio disponible, y si se consideran bases de datos masivas, dichas estructuras en particular serán estructuras de datos con I/O eficiente. Otro aspecto importante son los lenguajes de consulta, necesarios para la manipulación de una base de datos, que no siempre poseen el poder expresivo necesario para reflejar las consultas consideradas de interés en este modelo. Así, nuestra investigación pretende contribuir a la consolidación de este nuevo modelo de bases de datos.Eje: Bases de Datos y Minería de DatosRed de Universidades con Carreras en Informática (RedUNCI

Servicio de Difusión de la Creación Intelectual

Bases de datos no convencionales: índices y lenguajes de consulta

Author: Arroyuelo Jorge
Chávez Edgar
Esquivel Susana Cecilia
Figueroa Karina
Grosso Alejandro
Hoffhein Manuel
Ludueña Verónica
Martinez Cintia D.
Navarro Gonzalo
Paredes Rodrigo
Reyes Nora Susana
Publication venue
Publication date: 11/05/2015
Field of study

Run-Length Compressed Indexes Are Superior for Highly Repetitive Sequence Collections

Author: D. Arroyuelo
D. Gusfield
E. Pennisi
G. Manzini
G. Navarro
G.M. Church
J. Fischer
K. Sadakane
K. Sadakane
L. Russo
L. Russo
N. Hall
P. Ferragina
P. Ferragina
R. Grossi
U. Manber
V. Mäkinen
V. Mäkinen
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 01/01/2008
Field of study

A repetitive sequence collection is one where portions of a base sequence of length n are repeated many times with small variations, forming a collection of total length N. Examples of such collections are version control data and genome sequences of individuals, where the differences can be expressed by lists of basic edit operations. This paper is devoted to studying ways to store massive sets of highly repetitive sequence collections in space-efficient manner so that retrieval of the content as well as queries on the content of the sequences can be provided time-efficiently. We show that the state-of-the-art entropy-bound full-text self-indexes do not yet provide satisfactory space bounds for this specific task. We engineer some new structures that use run-length encoding and give empirical evidence that these structures are superior to the current structures

CiteSeerX

Crossref

Helsingin yliopiston digitaalinen arkisto

Flexible Indexing of Repetitive Collections

Author: A Blumer
D Arroyuelo
D Belazzougui
D Gusfield
D Valenzuela
DE Willard
DR Morrison
J Sirén
J Ziv
JI Munro
M Crochemore
M Crochemore
M Raffinot
P Elias
P Ferragina
S Gog
S Kreft
T Gagie
V Mäkinen
V Mäkinen
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 01/01/2017
Field of study

Highly repetitive strings are increasingly being amassed by genome sequencing experiments, and by versioned archives of source code and webpages. We describe practical data structures that support counting and locating all the exact occurrences of a pattern in a repetitive text, by combining the run-length encoded Burrows-Wheeler transform (RLBWT) with the boundaries of Lempel-Ziv 77 factors. One such variant uses an amount of space comparable to LZ77 indexes, but it answers count queries between two and four orders of magnitude faster than all LZ77 and hybrid index implementations, at the cost of slower locate queries. Combining the RLBWT with the compact directed acyclic word graph answers locate queries for short patterns between four and ten times faster than a version of the run-length compressed suffix array (RLCSA) that uses comparable memory, and with very short patterns our index achieves speedups even greater than ten with respect to RLCSA

Crossref

Archivio istituzionale della ricerca - Università degli Studi di Venezia Ca' Foscari

Archivio della ricerca- LUISS Libera Università Internazionale degli Studi Sociali Guido Carli di Roma

Online Research Database In Technology

MPG.PuRe